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基于 伪 三 维 卷 积 神经 网 络 的 手势 姿态 估计 
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摘 E: 大 多 数 现 有 的 基于 深度 学 习 的 手势 姿态 估计 方法 都 使 用 标准 三 维 卷 积 神经 网 络 提取 三 维特 征 ， 估 计 手 部 关 
节 坐 标 。 这 种 方法 提取 的 特征 缺乏 手 部 的 多 尺度 信息 ， 限 制 了 手势 姿态 估计 的 精度 ;另外 ， 由 于 三 维 卷 积 神经 网 络 巨 
大 的 计算 成 本 和 内 存 需 求 ， 这 些 方法 常 难以 满足 实时 性 要 求 。 为 了 克服 这 些 缺 点 ， 提 出 以 空间 滤波 器 和 深度 滤波 器 
级 联 的 方式 模拟 三 维 卷 积 ， 减 少 网 络 参 数量 。 同 时 ， ruo : 
三 维 信息 。 实 验 表明 ， 该 方法 能 有 效 提高 手势 姿态 估计 精度 小 模型 尺寸 ， 且 在 具有 单 块 GPU 的 计算 机 上 能 
超过 119 fps 的 速度 运行 。 
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Abstract: Most of the existing deep learning-based methods for hand pose estimation use a standard three-dimension 


convolutional neural network (3D-CNN) to extract 3D features and estimate the 3D coordinates of hand joints. The features 
extracted by these methods lack the multi-scale information of the hand, which limits the accuracy of hand pose estimation. 
In addition, due to the huge computational cost and memory requirements of the 3D CNN, these methods are often difficult 
to meet the real-time requirement. To overcome these weaknesses, the proposed method uses a spatial filter and a depth 
filter to simulate 3D convolutions, which reduces the amount of parameters. The proposed method extracts and integrates 
features at various scales, making full use of the 3D information of hand pose. Experiments show that the proposed method 
can improve estimation accuracy, reduce model size, and run at over 119fps on a standard computer with a single GPU. 


Key words: hand pose estimation; pseudo-3d convolutional neural network; 3d features; depth image; deep learning 


a 0 引言 并 未 充分 利用 三 维 信息 ， 同 时 三 维 网 络 的 训练 需要 巨大 的 计 
C m 算 成 本 ， 相 比 于 2D CNN， 模 型 大 小 也 几乎 增加 了 一 倍 ， 为 
基于 视觉 的 手势 姿态 估计 研究 近年 来 取得 了 显著 地 进展 ， 了 达到 实时 性 的 要 求 ， 只 能 使 用 较 浅 的 网 络 结构 ， 这 使 姿态 
作为 人 机 交互 的 核心 技术 之 一 ， 该 技术 为 用 户 提 供 了 一 种 自 估计 的 效果 大 打折 扣 。 
然 地 交互 方式 。 由 于 深度 图 像 可 以 有 效 解决 单 目 RGB 输入 最 近 ， 针 对 3D CNN 巨大 的 计算 成 本 和 内 存 需求 问题 ， 
中 存在 的 复杂 背景 干扰 等 问题 ， 手 势 姿态 估计 任务 几乎 完全 文献 [15] 提 出 了 一 种 新 的 网 络 结构 ， 称 为 伪 三 维 残 差 网 络 
转 为 仅 使 用 深度 数据 作为 输入 59。 其 次 , 深度 学 习 改 变 了 视 (pseudo-3D residual networks, P3D ResNet)， 这 种 创新 的 模 
觉 问 题 的 解决 方式， 深度 神经 网 络 的 使 用 已 经 成 为 手势 姿态 块 设计 在 保证 准确 率 的 前 提 下 ， 大 幅 减 小 了 模型 尺寸 。 文 献 


估计 方法 中 的 常态 731。 [16] 提 出 了 一 种 新 型 的 “堆栈 式 沙漏 ”网 络 用 于 人 体 姿态 估 

在 众多 基于 深度 神经 网 络 的 姿态 估计 的 方法 中 ， 深 度 图 。 计 任 务 ， 该 设计 提取 和 合并 不 同 尺度 下 的 人 体 姿 态 特 征 ， 从 
常 被 视 为 二 维 图 像 ， 输 入 二 维 卷 积 神经 网 络 (convolutional 而 显著 提升 了 姿态 估计 的 精度 。 本 文 的 工作 受 此 启发 ， 提 出 
neural network, CNNO 中 ， 输 出 三 维 关 贡 位置 820、 手 部 模 了 一 种 基于 伪 三 维 卷 积 神经 网 络 的 手势 姿态 估计 方法 ， 整 体 
型 参数 患 ] 或 热 图 5。 直 观 上 来 说 ， 由 于 缺乏 3D 空间 信息 ， 网 络 结构 如 图 1 所 示 。 首 先 将 手势 姿态 的 深度 图 编码 为 3D 


2D CNN 提取 的 基于 图 像 的 特征 并 不 适用 于 3D 手势 姿态 估 体积 表示 并 将 手 部 区 域 从 体积 表示 中 分 割 出 来 ， 将 其 馈送 到 
计 。 鉴 于 此 ， 最 近 有 几 种 基于 3D CNN 的 方法 被 陆续 提出 由 基础 伪 三 维 残 差 模块 组 成 的 完整 网 络 中 ， 最 终 输出 手 i 
上 3, 约 ， 然 而 这 些 方法 只 是 简单 的 应 用 3D CNN 提取 特征 ， 节 的 空间 坐标 。 本 文 方法 的 优点 可 以 概括 如 下 : 
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a) 使 用 改进 的 手势 姿态 体积 表示 方法 , 训练 简单 的 CNN 混合 法 由 模型 生成 和 数据 驱动 两 阶段 方法 结合 而 来 。 文 
获得 更 准确 的 手 部 区 域 ， 去 除 无 效 区 域 的 影响 ; 献 [24] 训 练 了 一 个 由 多 级 网 络 构成 的 反馈 回路 ， 其 中 包含 进 
b) 使 用 伪 三 维 卷 积 蔡 代 标准 三 维 卷 积 , 大 幅 减 小 模型 人 ” 行 初始 姿态 估计 的 辨别 网 络 ， 进 行 姿态 合成 的 生成 网 络 和 通 

寸 ， 加 快手 势 姿态 估计 速度 ; 过 多 次 迭代 改善 姿态 估计 的 姿态 更 新 网 络 。 文 献 [25] 使 用 了 
c) 使 用 三 维 “沙漏 ”结构 网 络 ， 提 取 并 融合 手势 姿态 多 ”两 个 具有 共享 潜在 空间 的 深度 生成 模型 ， 并 通过 训练 鉴别 器 
尺度 特征 ， 充 分 利用 三 维 信息 ， 提 高 手势 姿态 估计 精度 。 来 估计 被 遮挡 的 部 分 手势 姿态 。 本 文 的 工作 专注 于 进行 单 阶 
段 的 一 次 性 完整 手势 姿态 估计 ， 从 而 更 有 效 地 利用 手 部 关节 


1 ”相关 研究 


点 之 间 的 潜在 相关 性 。 
1.1 基于 深度 图 像 的 手势 姿态 估计 1.2 伪 三 维 卷 积 神经 网 络 
从 深度 图 像 中 进行 手势 姿态 估计 的 方法 可 分 为 模型 生成 3D CNN 已 被 成 功 地 应 用 于 从 深度 图 和 CAD 模型 等 数 
方法 、 数 据 驱动 方法 和 混合 法 。 模 型 生成 方法 通常 预定 义 据 中 提取 3D 特征 ,进行 三 维 场景 重建 PC 、 三 维 物体 检测 下、 
个 手 部 模型 ， 通 过 最 小 化 损失 函数 使 手 部 模型 与 输入 的 深度 ”物体 识别 Pg 等 任务 。 然 而 较 浅 的 3D CNN 难以 获得 有 效 的 特 


图 像 相 匹 配 。 常见 的 优化 方法 是 迭代 最 近 点 (iterative closest 征 ， 训 练 深层 3D CNN 则 需要 高 昂 的 计算 成 本 和 内 存 需求 。 
point, ICP) 073、 粒 子 群 优化 〈particle swam optimization, 针对 这 些 问题 ， 文 献 [1$] 中 提出 的 P3D ResNet 使 用 空间 和 时 
SO) 08] 或 者 两 者 的 组 合 方法 由。 由 于 这 些 方法 通常 需要 使 间 卷 积 滤波 器 组 合 模拟 时 空 卷 积 滤波 器 ， 这 种 组 合 可 以 被 看 
用 时 态 信息 ， 因 此 更 依赖 于 手 部 模型 的 初始 化 ， 在 进行 姿态 做 为 伪 三 维 CNN, 在 提升 视频 分 析 效 果 的 同时 ,大幅 减 少 模 
古 计 时 误差 也 更 容易 累积 。 型 参数 ， 缩 短 模型 训练 时 间 。 a 
数据 驱动 方法 直接 从 输入 的 深度 图 中 定位 手 部 关节 点 。 的 多 种 任务 中 ， 但 是 他 们 并 没有 关注 3D 手势 姿态 估计 。 本 

受 人 体 姿态 估计 领域 内 方法 0 的 启发 ， 文 献 [20,21] 使 用 基于 文 工 作 使 用 空间 和 深度 卷 积 滤波 器 模拟 三 维 卷 积 ， 提 取 手 势 
随机 森林 的 方法 及 其 改进 方法 作为 判别 模型 ， 获 得 了 准确 而 姿态 3D 特征 的 同时 ， 减 少 神经 网 络 模型 参数 ， 使 之 满足 实 
快速 的 性 能 。 然 而 ， 受 手工 设计 特征 的 限制 ， 基 于 随机 森林 际 应 用 场景 中 的 实时 性 要 求 ， 实 施 细 节 将 在 3.2 小 节 进 行 介 
的 方法 目前 难以 超越 基于 卷 积 神经 网 络 的 姿态 估计 方法 。 本 绍 。 
文 的 工作 与 基于 CNN 的 数据 驱动 方法 有 关 。 文 献 [7] 首 先 提 EN um 
出 通过 CNN 估计 每 个 手 部 关节 的 2D AR, 从 而 定位 手 部 关 2 方法 概述 
节点 。 文 献 [22,23] 提 出 了 一 种 2D 区 域 集合 网 络 (region 为 了 充分 利用 手势 姿态 深度 图 中 各 个 尺度 的 三 维 信息 ， 
ensemble network，REN) 用 来 精确 估计 关节 点 的 三 维 坐标 。 加 快手 势 姿态 估计 速度 ， 本 文 提 出 一 种 新 的 伪 三 维 “ 堆 栈 式 
文献 [16] 提 出 了 一 种 新 型 的 “堆栈 式 沙 漏 ”网 络 (Stacked 沙漏 ”网 络 ， 沙 漏网 络 有 助 于 提取 多 尺度 特征 ， 伪 三 维 结构 
Hourglass Networks，SHN )， 通 过 提取 并 整合 各 个 尺度 上 图 设计 则 能 有 效 降 低 网 络 训练 所 需 的 计算 成 本 和 空间 需求 。 首 
像 特 征 ， 精 确 估计 二 维 关 节点 坐标 ， 并 在 人 体 姿 态 估计 领域 先 ， 含 有 手势 姿态 的 单 张 深 度 图 经 过 体积 表示 被 转换 为 体 素 
内 取得 了 较 大 的 成 功 。 文献 [1] 创 新 性 地 将 3D CNN 引入 到 手 形式 ， 分 割 出 手 部 区 域 后 馈送 入 该 网 络 ， 之后， 通过 多 次 的 
势 姿 态 估计 任务 中 来 ， 利 用 深度 图 中 的 三 维 信息 直接 估计 手 3D 卷 积 、3D 池 化 和 3D 反 卷 积 等 操作 ， 网 络 从 体积 表示 中 
部 关节 点 的 三 维 坐标 。 人 an 2D 关 提取 多 尺度 3D 特征 ， 最 后 回归 手 部 关节 点 的 空间 坐标 。 为 

的 

单 
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节点 检测 与 3D 姿态 估计 两 阶段 相 结 合 ， 同 时 利用 深度 图 能 了 使 网 络 模型 对 不 同 的 手 形 大 小 和 镜头 视角 更 具 鲁 棒 性 ， 本 
E 和 三 维 信息 ， 实 现 手势 姿态 估计 。 这 些 方法 均 使 用 简 文 方法 对 体 素 形式 的 手势 姿态 进行 数据 增强 。 整 体 网 络 结构 
的 3D CNN 来 提取 手势 姿态 特征 ， 但 并 未 充分 利用 深度 图 如 图 1 所 示 ， 其 中 每 个 模块 下 方 的 数字 表示 输入 EF) A 
息 。 本 文 的 方法 利用 SHN 与 3D CNN 两 种 方 ” 输出 〈 下 方 ) 的 特征 图 的 “尺寸 @ 通 道 数量 ”， 其 中 N3 表示 

法 的 优势 ， 从 多 个 尺度 上 提取 并 整合 3D 特征 进行 手势 姿态 ” N xN xN。 下 文 将 对 方法 细节 进行 介绍 。 


MR 


MEL Aa rm 40032 407@32 HEX 
深度 图 体积 表示 。 80916 节 坐 标 
2 p 三 维 池 化 层 | rc | 全 连接 层 
图 1 整体 网 络 结构 示意 图 
Fig. 1 Framework of the proposed method 

2.4 手势 姿态 的 体积 表示 为 体 素 网 格 。 如 式 (1) 所 示 ， 如 果菜 一 体 素 网 格 中 包含 有 深度 

a) 体 积 表示 。 将 手势 姿态 编码 为 体积 表示 的 目标 是 尽 可 点 ， 则 将 该 体 素 值 HG 设置 为 1， 否则 设 为 0。 
能 的 从 深度 图 中 表示 手势 姿态 在 空间 中 的 3D 体积 。 本 文 工 i (- pied a 3 
作 改 进 了 文献 [28] 所 提出 的 占用 网 格 模型 ， 采 用 新 的 手 部 区 H(i, j,k) | (1) 
域 获取 方式 。 首 先 ， 深 度 图 中 的 每 个 像素 根据 深度 值 重 投影 0 oi 
到 3D 空间 ,之 后 按照 预先 定义 的 体 素 分 辨 率 " 将 该 空间 分 割 其 中 : HG. Jj.) 表 示 手 势 姿 态 体 素 ， P(mm) 表示 深度 图 中 的 深 
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度 点 ，" 表 示 预 先 定义 的 体 素 分 辩 率 。 
为 了 确定 手 部 区 域 参 考点 ， 本 文采 用 新 的 基于 二 维 残 差 
网 络 (ResNet ) [9 的 浅 层 网 络 学习 手 部 中 指 掌 指 关节 
(metacarpophalangeal, MCP) 的 参考 点 偏 移 和 撩 量 ， 相 比 于 
文献 [2 和 中 采用 的 浅 层 CNN， 本 文 方法 可 以 提取 手势 深度 图 
更 有 效 的 特征 ， 回 归 手 部 区 域 精确 参考 点 ， 并 以 该 点 为 中 心 
绘制 立体 方 框 ， 去 除 无 效 区 域 的 影响 。 
b) 数 据 增强 。 在 实际 应 用 场景 中 ， 手 势 姿态 在 手 形 大 小 
和 观察 视角 上 具有 很 大 的 变化 ， 为 了 使 模型 更 具 鲁 棒 性 ， 本 
文 对 训练 数据 进行 数据 增强 操作 。 有 具体 来 说 ， 分 割 而 来 的 手 
部 区 域 将 在 XY 空间 中 随机 进行 旋转 ， 在 3D 空间 中 随机 执 
行 放 缩 与 平移 操作 ， 其 中 旋转 角 区 间 为 [-45,45]， 放 缩 因 子 区 
间 为 [0.7,1.3]， 平 移 像素 区 间 为 [-10,10]， 原 始 数据 集 和 增强 
后 的 数据 集 均 被 用 做 训练 数据 集 。 
2.2 ”网络 结构 
2.2.1 基础 模块 
本 文 提 出 的 伪 三 维 沙漏 结构 设计 可 以 用 来 提取 不 同 尺度 
的 特征 再 进行 融合 。 小 尺度 上 的 局 部 特征 对 于 手 部 关节 点 的 
位 置 估 计 至 关 重 要 ， 大 尺度 上 的 全 局 特征 则 能 充分 利用 手 部 
关节 之 间 的 潜在 整体 相关 性 , 从 而 提高 手势 姿态 估计 的 精 
为 此 ， 本 文 主要 使 用 以 下 三 种 基础 模块 来 搭建 网 络 模型 。 
a) 三 维 卷 积 模块 。 该 模块 包含 标准 三 维 卷 积 层 、 三 维 批 
量 归 一 化 和 激活 函数 CHI ReLU)， 主 要 应 用 于 网 络 的 两 端 ， 
分 别 用 来 对 输入 进行 浅 层 特征 提取 ， 和 对 整合 的 各 尺度 特征 
进行 滤波 操作 。 
b) 三 维 反 卷 积 模块 。 该 模块 由 三 维 反 卷 积 层 、 三 维 批量 
归 一 化 和 激活 函数 ( 即 ReLU) 组 成 ， 位 于 沙漏 结构 的 后 半 
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Ua) 中 的 三 维 卷 积 滤 波 器 (3x3x3 卷 积 ) 分 解 为 空间 卷 积 滤 
波 器 S (3x3x1l 卷 积 ) 和 深度 卷 积 滤波 器 D (1x1x3 卷 积 )， 


如 图 2(b)， 


TE 


一 步 提取 手势 姿态 的 深度 特征 ， 两 种 卷 积 滤波 器 通过 级 联 的 
方式 组 成 基础 伪 三 维 残 差 模块 ， 该 模块 可 表示 为 


用 来 提取 手势 姿态 的 空间 特征 ，D 


其 中 : x 和 表示 第 5 个 残 差 单元 的 输入 和 输出 , S 和 D 是 两 


xax € DS) Q) 


个 同一 路 径 上 的 非 线性 残 差 函数 。 


3D Conv 3X3X3 


(a) 
图 2 原 


Fig.2 Original 3D 


为 了 简化 模型 学 习 过 程 ， 加 快 模型 训练 速度 ， 本 文 在 所 


ReLU 


始 三 维 残 差 模块 和 伪 三 维 残 差 模块 


residual module and pseudo 3D residual module 


有 基础 模块 中 均 添 加 批量 归 一 化 层 和 激活 函数 ， 并 将 三 维 卷 
积 模块 中 的 卷 积 核 尺寸 设 为 3x3x3, 3D 池 化 层 和 三 维 反 卷 积 


模块 中 的 核 尺 寸 设 为 2x2x2， 步 长 设 为 2。 
2.2.2 伪 三 维 沙漏 结构 


lm 


为 了 解决 现 有 三 维 结构 网 络 不 能 充分 利用 多 尺度 特征 的 


问题 ， 本 文 提出 一 


特征 


进行 融合 ， 


种 新 的 伪 三 维 沙漏 结构 ， 从 各 个 斥 度 提取 
提高 姿态 估计 精度 。 体 积 表示 的 手势 姿态 


经 过 多 次 连续 的 池 化 操作 获得 不 同 斥 度 的 特征 图 ， 伪 三 维 残 


段 ， 主 要 用 来 对 特征 图 进行 上 采样 操作 。 
c) 伪 三 维 残 差 模块 。ResNet29] 由 许多 残 差 块 组 成 ， 每 个 
残 差 块 可 表示 为 
Xn =x TR) (2) 
FE rp: x 和 xa 表示 第 + 个 残 差 单元 的 输入 和 输出 ，R 是 非 线 
性 残 差 函数 。ResNet 的 主要 思想 是 拟 合 残 差 函 数 R ， 而 不 是 
直接 学 习 映 射 的 非 线 性 函数 。 


为 了 减少 神经 网 络 模型 参数 并 提取 更 有 效 的 特征 ， 如 图 


差 模 块 对 多 尺度 特征 图 进行 特征 提取 获得 特征 fi,ke(1,2.…n) ; 


为 了 整合 不 同 尺 度 的 特征 ， 最 小 尺寸 的 特征 图 多 次 经 过 三 维 
反 卷 积 模块 进行 上 采样 操作 ， 
甫 助 上 采样 ， 最 终 将 各 个 尺度 上 的 特征 整合 ， 


姿态 的 三 维 信息 ， 


融合 特征 提取 阶段 获得 的 
充分 利用 手势 
确定 手 部 关节 点 三 维 坐标 。 伪 三 维 沙漏 结 


构 如 图 3 所 示 ， 图 


中 每 个 模块 下 方 的 数字 表示 输入 《上 方 ) 


和 输出 (下 方 〉 的 特征 图 的 “尺寸 @ 通 道 数量 ”， 其 中 N3 K 


2 所 示 , 本 文采 用 新 的 滤波 器 组 合 , 将 原始 三 维 残 差 模块 (图 


不 NxNxN。 


203@64 103@64 10;@128 10;@128 103@128 
403@32 203@32 103@64 103@128 103@128 103@128 203@64 
203@32 20;@64 


jn 三 维 池 化 层 " 三 维 反 卷 积 


40;@16 403@32 40°@32 
403@32 403@32 403@32 


伪 三 维 残 差 
模块 


模块 


图 3 4 


沙漏 结构 


Fig.3 Pseudo-3D hourglass structure 
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分 辩 率 时 ,经 过 3 个 连续 的 伪 
使 用 三 维 反 卷 积 模 芭 


在 沙漏 结构 中 ， 三 维 池 化 
伪 三 维 残 差 模块 增加 特征 图 世 
AERE. xe 
化 与 伪 三 维 卷 积 操作 ， 分 支 路 贝 
后 ， 与 上 采样 后 的 小 


征 图 的 空间 尺寸 ， 而 
量 ， 提 到手 势 姿 态 的 三 
F 将 分 为 两 路 继续 传递 ， 一 路 会 多 次 进行 池 
1 在 经 过 一 次 简单 的 滤波 操作 


。 在 特征 图 达到 最 低 


块 提取 三 维特 征 后 ， 


对 其 进行 上 采样 


分 支 路 而 来 藤 


村 征 进 行 融合 。 


漏 结构 是 对 称 的 ， 每 次 特征 融合 时 均 
证 沙漏 结构 整体 的 


有 对 应 的 分 支 路 


输入 与 输出 


I 


态 经 过 一 个 卷 积 核 尺 寸 为 7x7x7 的 三 


| 1 所 示 ， 体 积 表 示 的 手势 姿 


使 用 三 维 池 化 层 将 


寸 ， 再 经 过 3 个 连 


卷 积 处 理 整合 后 的 特 生 
点 的 三 维 坐标 。 


2.3 网 络 训练 


寸 缩 小 为 适合 伪 三 维 
任 残 差 模块 ， 输 入 沙漏 结构 中 。 
达到 网 络 的 输出 分 辨 率 后 ， 应 用 2 个 连续 的 3x3x3 标准 三 维 


佳 卷 积 模块 滤波 处 理 后 ， 
局 结构 的 输入 尺 


接 层 回 归 手 部 关节 


于 伪 三 维 


结构 的 设计 ， 本 文 方法 大 幅 降 低 了 网 络 训练 


所 需 的 计算 成 本 和 空间 需求 。 训 练 过 程 中 ， 网 络 不 加 载 预 训 


练 模型 ， 且 损失 函数 工 采 用 
M 
L-Y Y CEG, j,k) -Cpi j OÈ 
m= i,j,k 


其 中 : CDM C, aae m EB nU 


FE, 1i 


INA) rz o 


值 三 维 坐标 和 


估计 的 三 维 坐标 ， 
该 网 络 使 月 
上 进行 训练 和 测试 。 网络 中 
零 均 值 高 斯 分 布 进 
mean square prop, RMSProp ETT E jj 


最 小 批量 为 8。 根据 GPU KERAIAN TEE 


ul 


的 关节 点 数量 。 
kų NVIDIA Titan X GPU 
E 5 f H] o=0.001 的 
均 方 根 优 化 算法 Croot 


B " 


iml 


PEDE 371 DA 2.5e^ , 


E KOKTA S 


的 体积 大 小 设 为 80x80x80， 为 了 取得 效果 最 好 的 模型 ， 每 


次 进行 8 轮训 练 ， 共 需 大 约 5 天 时 间 。 


3 ”实验 


3.1 手势 姿态 数据 集 与 评估 标准 
a)ICVL 手势 数据 集 。ICVL 数 ] 
深度 图 的 训练 集 和 超过 1500 个 深度 医 
特 尔 的 Creative Interactive Gesture Camera 
势 执 行人 中 路 外 
手掌 为 一 个 关节 点 ， PE 
b)NYU 手势 数据 集 。NYU X E 
度 图 的 训练 集 条 
图 像 由 一 人 完成 ， 而 测试 引 
Kinect 生成 。 该 数 


含有 33.1 万 个 


的 测试 集 组 成 ,使 用 英 
从 10 个 不 同 的 手 
指 为 三 个 关节 点 ， 


含有 7.2 万 个 深 
的 测试 集 组 成 。 其 中 训练 集 的 
两 个 人 从 三 个 不 同 视角 的 


和 手 含有 36 4X1 


点。 由 于 之 前 的 


大 部 分 工作 仅 使 用 1 的 14 个 关节 点 进行 效果 评 
估 ， 为 了 便于 比较 ， 本 文 也 将 按照 该 配置 进行 实验 。 
手势 估计 效果 的 评 个 评估 标准 进行 ， 


分 别 为 每 个 关节 点 的 三 维 距离 平均 误差 (Mean Error) 和 最 


大 误差 低 于 闵 值 的 J 
3.2 实验 结果 展示 与 分 析 
1) 与 基准 实验 的 比较 
为 了 探究 伪 三 维 
网 络 模 型 在 ICVL 数据 集 
仅 将 沙漏 结构 网 络 从 二 维 扩 


> 漏 结构 对 手势 估计 效果 是 否 有 提升 ， 
较 实 验 。 在 该 实验 中 ， 


维 沙 漏网 络 ， 将 


其 作为 基准 实验 与 本 文 所 提出 上 
较 ， 手 势 估计 效 
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少 漏 结 构 对 模型 尺寸 的 减 小 和 手势 姿态 估计 速度 是 否 有 
所 提高 ， 还 比较 了 本 文 方法 与 基准 实验 之 间 的 模型 大 小 和 单 
次 手势 姿态 估计 的 时 间 ， 比 较 结果 如 表 1 所 示 。 

从 实验 结果 可 以 看 出 ， 在 误差 阔 值 较 小 时 ， 本 文 方法 中 


的 准确 率 略 高 于 基准 实验 ， 同 时 三 维 距 离 平均 误差 比 基 准 实 
K 0.754mm， 单 次 手势 估计 时 间 加 快 了 4ms， 模 型 尺寸 
晶 减 小 为 基准 实验 的 1/2。 可 见 伪 三 维 沙漏 网 络 在 小 幅 提 


In 


手势 估计 精度 的 同时 ， 能 显著 加 快手 势 估计 速度 ， 并 大 幅 
R3. 


(4) 


0 10 20 30 


Fraction of frames within distance (96) 


EN baseline 

E ours 
[= 
"2odS2xuixogoogoOornhnLir» 
EE 
55590722 c l.:ctct 
£2ESSE x- ag’ 
[m 

—— baseline 

—— ours 


40 50 60 70 80 
Maximum allowed distance to GT (mm) 


4 ICVL 数据 集 上 的 基准 实验 比较 结果 


Fig.4 Comparison of the proposed method with baseline on ICVL 


dataset 
基准 实验 模型 与 本 文 方法 模型 比较 实验 结果 
Comparison ofthe proposed method with baseline 


方法 | Mean Error(mm) 模型 大 小 单 次 手势 姿态 估计 时 间 (ms) 


7.275 26.1MB 12.27 
6.521 12.5MB 8.39 
2) 与 其 他 方法 的 比较 


该 实验 在 ICVLB0 和 NYUB0 两 个 数据 集 上 进行 本 文 方法 
与 多 种 方法 之 间 的 比较 ， 其 中 包括 潜在 随机 森林 atent 
random forest, LRF) RH， 级 联手 势 回 归 (cascade) PH, He 
Xt DeepPrior( DeepPrior---)?4], Hand3DU^l, CrossingNetsÜ25l, 


区 域 集合 网 络 (Pose-RENO P, wE 3D 回归 方法 

(DenseReg) 03]， 反 馈 环 训练 方法 〈Feedback) BA4 和 基于 3D 
CNN 的 方法 GD CNN) I 中。 以 上 方法 的 结果 均 根 据 线 上 所 
是 供 的 预测 标签 计算 而 来 。 
如 图 5、6 IX 2 所 示 , 在 ICVL 数据 集 B0 上 本 文 方法 要 
所 有 方法 ， 在 误差 允许 范围 较 小 的 情况 下 ， 仍 有 


F DenseReg[131。 造 成 这 种 现象 的 原因 可 能 是 由 于 在 该 数据 


JÆ NYU 数据 集 B0 上 ， 本 文 方法 的 精度 要 略微 


区 域 没有 被 裁剪 出 来 ， 所 以 在 对 区 域 进行 分 割 时 产 
生 误 差 。 尽管 如 此 ， 按照 文 献 [13] 中 介绍 DenseReg 方法 进行 


> 汤 结构 网 络 进行 比 


， 为 了 探究 伪 


长 手 势 姿 态 估 计 和 需要 36 ms， 而 本 文 方法 仅 需 要 8.39ms, 
RF DenseReg 方法 。 
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图 5 在 ICVL 数据 集 上 与 其 他 方法 比较 结果 


Fig. 5 Comparison of the proposed method with other methods on 
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表 2 在 ICVL 和 NYU 上 各 种 方法 的 三 维 距离 平均 误差 比较 结果 


Table 2 Comparison of 3D distance mean error of 
various methods on ICVL and NYU 


(a) ICVL 
方法 Mean Error(mm) 
LRF 12.58 
Hand3D 10.9 
CrossingNets 10.2 
Cascade 9.9 
DeepPrior-—- 8.1 
DenseReg 7.24 
Pose-REN 6.79 
基准 实验 7.28 
本 文 方法 6.52 
(b) NYU 
方法 Mean Error(mm) 
Hand3D 17.6 
Feedback 15.97 
3DCNN 14.1 
DeepPrior++ 12.24 
Pose-REN 11.81 
DenseReg 10.21 
基准 实验 12.14 
本 文 方法 11.31 
4 ARA 
本 文 提出 了 一 种 精确 的 基于 伪 三 维 卷 积 神经 网 络 的 手势 
姿态 估计 方法 。 手 势 深 度 图 编码 为 三 维 体积 表示 后 ， 作 为 伪 
三 维 卷 积 神经 网 络 的 输入 ， 并 使 用 改进 的 分 割 方法 对 手 部 区 
域 进行 分 制 。 通 过 使 用 空间 卷 积 滤波 器 和 深度 卷 积 滤波 器 级 
联 的 方式 ， 简 化 了 标准 三 维 卷 积 。 在 多 尺度 下 进行 特征 的 提 
取 与 融合 ， 使 手势 姿态 中 的 三 维 信息 得 到 充分 的 利用 。 实 验 


结果 表明 ， 本 文 方法 中 的 模型 


有 较 小 的 尺寸 ， 在 提高 精度 


的 同时 ， 加 快 了 手势 姿态 估计 的 速度 。 在 未 来 的 工作 中 ， 将 
会 进一步 探究 多 样 性 的 网 络 结构 对 手势 姿态 估计 效果 的 影响 。 
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